模式识别与人工智能
2025年7月25日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2024, Vol. 37 Issue (10): 873-886    DOI: 10.16451/j.cnki.issn1003-6059.202410002
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
三元概念的分布式并行构造算法
李金海1,2,3, 王坤1,2, 陈强强2,3
1.昆明理工大学 信息工程与自动化学院 昆明 650500;
2.昆明理工大学 数据科学研究中心 昆明 650500;
3.昆明理工大学 理学院 昆明 650500
Distributed Parallel Construction Algorithm for Triadic Concepts
LI Jinhai1,2,3, WANG Kun1,2, CHEN Qiangqiang2,3
1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500;
2. Data Science Research Center, Kunming University of Science and Technology, Kunming 650500;
3. Faculty of Science, Kunming University of Science and Technology, Kunming 650500

全文: PDF (764 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 作为形式概念分析的扩展,三元概念分析在高维数据的理论和应用中均取得显著效果.然而,数据量的极速增长导致三元概念的生成算法的时间复杂度呈指数级增长,在现实应用中面临巨大挑战,需要构造并行算法.因此文中提出适用于大规模数据的三元概念分布式并行构造算法,首先给出对象-属性和属性-条件三元概念的相关理论,并证明所有三元概念可通过合并这两种类型的中间概念生成.然后,采用两阶段聚合策略,改进Spark框架中的弹性分布式数据集操作符,有效解决数据倾斜问题,明显提升算法的运行效率.最后,在多个公开数据集上的实验表明,文中算法在海量数据中的三元概念生成过程中表现高效.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
李金海
王坤
陈强强
关键词 形式概念三元概念分布式并行两阶段聚合数据倾斜    
Abstract:As an extension of formal concept analysis, triadic concept analysis achieves significant results in both theory and applications of high-dimensional data. However, the time complexity of triadic concept generation algorithms, caused by the rapid growth of data volume, typically grows exponentially, presenting significant challenges in practical applications. Therefore, parallel algorithms are crucial. In this paper, a distributed parallel construction algorithm for triadic concepts suitable for large-scale data is proposed. First, the theories of object-attribute triadic concepts and attribute-condition triadic concepts are provided, and it is proved that all triadic concepts can be generated by merging these two types of intermediate concepts. Second, a two-stage aggregation strategy is employed to improve the resilient distributed dataset operator in the Spark framework. Consequently, the data skew problem is effectively solved and the efficiency of the proposed algorithm is significantly improved. Finally, experiments on multiple public datasets indicate that the proposed algorithm performs efficiently in generating triadic concepts for large datasets.
Key wordsFormal Concept    Triadic Concept    Distributed Parallelization    Two-Stage Aggregation    Data Skew   
收稿日期: 2024-10-08     
ZTFLH: TP 18  
基金资助:国家自然科学基金项目(No.62476114)、云南省基础研究计划项目(No.202401AV070009)资助
通讯作者: 李金海,博士,教授,主要研究方向为认知计算、粒计算、大数据分析、概念格、粗糙集.E-mail:jhlixjtu@163.com.   
作者简介: 王 坤,硕士研究生,主要研究方向为三元概念分析、并行计算.E-mail:wang_kun@stu.kust.edu.cn.陈强强,博士研究生,主要研究方向为数据挖掘、机器学习.E-mail:chen_qiangqiang@163.com.
引用本文:   
李金海, 王坤, 陈强强. 三元概念的分布式并行构造算法[J]. 模式识别与人工智能, 2024, 37(10): 873-886. LI Jinhai, WANG Kun, CHEN Qiangqiang. Distributed Parallel Construction Algorithm for Triadic Concepts. Pattern Recognition and Artificial Intelligence, 2024, 37(10): 873-886.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202410002      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I10/873
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn